#하드웨어 최적화

프랑스 AI 스타트업 ZML, 다양한 칩에서 추론 속도를 높이는 무료 제품 출시

튜링상 수상자 얀 르쿤의 지지를 받는 프랑스 AI 스타트업 ZML이 엔비디아, AMD, 구글 TPU 등 다양한 칩에서 최적의 LLM 추론 성능을 낼 수 있는 무료 소프트웨어 'ZML/LLMD'를 출시했습니다. 이는 기존 엔비디아 중심의 시장 독점과 벤더 종속 문제를 타파하고, 기업들이 비용과 에너지를 절감하며 AI 인프라를 구축할 수 있게 돕는 시장 판도 변경자로 평가받고 있습니다.

AI 추론 ZML 오픈소스

Hacker News • 75일 전

IMP 8

내 하드웨어에 최적화된 로컬 LLM 벤치마크 순위 추천

사용자의 GPU, CPU, RAM을 자동 감지하여 HuggingFace의 최신 모델 중 시스템에 맞는 최적의 로컬 LLM을 벤치마크 점수 기반으로 순위 매기는 오픈소스 CLI 도구입니다. 단순히 용량만 맞추는 것을 넘어 실제 성능 평가 지표와 최신성을 반영해 가장 우수한 모델을 추천하는 것이 특징입니다. 단 한 줄의 명령어로 추천 모델을 다운로드하고 즉시 채팅을 시작할 수 있어 로컬 환경 구축에 매우 유용합니다.

로컬 LLM 오픈소스 도구 하드웨어 최적화

r/LocalLLaMA • 97일 전

IMP 9

단일 RTX 3090으로 85 TPS·12만5천 컨텍스트 구현

알리바바의 Qwen3.6-27B 모델이 출시된 지 하루 만에, 단일 소비자용 그래픽 카드(RTX 3090 24GB)에서 데이터센터급 추론 속도(85 TPS)와 12만 5천 토큰의 컨텍스트, 그리고 비전(Vision) 기능을 구현한 오픈소스 스택이 등장했습니다. 이는 기존 API 의존 없이도 GPT급 속도와 개인정보 보호, 무료 추론 비용을 모두 누릴 수 있게 되었음을 의미합니다. 저자는 vLLM의 버그 패치 4개와 최적화를 통해 이론적으로 불가능해 보이던 하드웨어 한계를 극복한 구체적 과정을 공유합니다.

로컬 추론 오픈소스 LLM vLLM